In robotics and computer vision communities, extensive studies have been widely conducted regarding surveillance tasks, including human detection, tracking, and motion recognition with a camera. Additionally, deep learning algorithms are widely utilized in the aforementioned tasks as in other computer vision tasks. Existing public datasets are insufficient to develop learning-based methods that handle various surveillance for outdoor and extreme situations such as harsh weather and low illuminance conditions. Therefore, we introduce a new large-scale outdoor surveillance dataset named eXtremely large-scale Multi-modAl Sensor dataset (X-MAS) containing more than 500,000 image pairs and the first-person view data annotated by well-trained annotators. Moreover, a single pair contains multi-modal data (e.g. an IR image, an RGB image, a thermal image, a depth image, and a LiDAR scan). This is the first large-scale first-person view outdoor multi-modal dataset focusing on surveillance tasks to the best of our knowledge. We present an overview of the proposed dataset with statistics and present methods of exploiting our dataset with deep learning-based algorithms. The latest information on the dataset and our study are available at https://github.com/lge-robot-navi, and the dataset will be available for download through a server.
translated by 谷歌翻译
Robotics has been widely applied in smart construction for generating the digital twin or for autonomous inspection of construction sites. For example, for thermal inspection during concrete curing, continual monitoring of the concrete temperature is required to ensure concrete strength and to avoid cracks. However, buildings are typically too large to be monitored by installing fixed thermal cameras, and post-processing is required to compute the accumulated heat of each measurement point. Thus, by using an autonomous monitoring system with the capability of long-term thermal mapping at a large construction site, both cost-effectiveness and a precise safety margin of the curing period estimation can be acquired. Therefore, this study proposes a low-cost thermal mapping system consisting of a 2D range scanner attached to a consumer-level inertial measurement unit and a thermal camera for automated heat monitoring in construction using mobile robots.
translated by 谷歌翻译
视觉惯性探测器和猛击算法广泛用于各种领域,例如服务机器人,无人机和自动驾驶汽车。大多数SLAM算法都是基于地标是静态的。但是,在现实世界中,存在各种动态对象,它们会降低姿势估计精度。此外,暂时的静态对象,在观察过程中是静态的,但在视线视线时移动,触发假循环封闭。为了克服这些问题,我们提出了一个新颖的视觉惯性大满贯框架,称为dynavins,它对动态对象和暂时静态对象都具有强大的态度。在我们的框架中,我们首先提出一个可靠的捆绑捆绑调整,该调整可以通过利用IMU预融合估计的姿势先验来拒绝动态对象的功能。然后,提出了一个密钥帧分组和基于多种假设的约束分组方法,以减少循环闭合中暂时静态对象的效果。随后,我们在包含许多动态对象的公共数据集中评估了我们的方法。最后,通过成功拒绝动态和暂时静态对象的效果,我们的测力量与其他最先进方法相比,我们的测力素具有有希望的性能得到证实。我们的代码可在https://github.com/url-kaist/dynavins上找到。
translated by 谷歌翻译
在使用3D LiDAR传感器的3D感知领域中,地面分割是各种目的的必不可少的任务,例如可穿越的区域检测和对象识别。在这种情况下,已经提出了几种地面分割方法。但是,仍然遇到一些限制。首先,某些地面分割方法需要根据周围环境进行微调,这是过于费力且耗时的。此外,即使参数进行了充分的调整,部分分割问题仍然可能出现,这意味着某些地区的地面细分失败。最后,当地面在另一个结构(例如固定壁)之上时,地面分割方法通常无法估计适当的接地平面。为了解决这些问题,我们提出了一种称为PatchWork ++的强大地面分割方法,该方法是拼布的扩展。 Patchwork ++利用自适应地面可能性估计(A-GLE),根据先前的地面分割结果适应适当的参数。此外,暂时的地面还原(TGR)通过使用临时地面财产来减轻部分不及分段问题。同样,即使用不同的层抬高地面,也会引入区域垂直平面拟合(R-VPF),以正确分割接地平面。最后,我们提出反射的噪声去除(RNR),以根据3D激光雷达反射模型有效地消除虚拟噪声点。我们使用Semantickitti数据集证明了定性和定量评估。我们的代码可从https://github.com/url-kaist/patchwork-plusplus获得
translated by 谷歌翻译
与其他标准摄像机相反,事件摄像机以完全不同的方式来解释世界。作为异步事件的集合。尽管事件摄像头的独特数据输出,但许多事件功能检测和跟踪算法通过绕开基于框架的数据表示表现出了重大进展。本文质疑这样做的需求,并提出了一种新颖的事件数据友好方法,该方法可以实现同时的特征检测和跟踪,称为基于事件聚类的检测和跟踪(ECDT)。我们的方法采用一种新颖的聚类方法,称为基于K-NN分类器的空间聚类和噪声应用程序(KCSCAN)的应用,用于聚类相邻的极性事件以检索事件轨迹。借助头部和尾部描述符匹配过程,事件群集,在不同的极性中重新出现,不断跟踪,从而拉长了功能轨道。由于我们在时空空间中的聚类方法,我们的方法可以自动求解功能检测和特征跟踪。此外,ECDT可以使用可调的时间窗口以任何频率提取功能轨道,这不会破坏原始事件数据的高时间分辨率。与最先进的方法相比,我们的方法可以达到30%的特征跟踪年龄,同时也具有与其大约等于其的低误差。
translated by 谷歌翻译
将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,在许多研究中,对机器人控制以完成复杂的任务进行了深入的强化学习(RL)算法。不幸的是,由于难以解释博学的政策和缺乏稳定保证,尤其是对于诸如攀岩无人机之类的复杂任务,因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构,该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性,同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训,以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能,然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。
translated by 谷歌翻译
现代消费电子设备已为其主要功能采用了深度学习的情报服务。供应商最近开始在设备上执行情报服务,以在设备中保存个人数据,降低网络和云成本。我们发现了通过使用用户数据更新神经网络的情况,而无需将数据暴露在设备中:设备培训。例如,我们可能会添加一个新课程,我的狗Alpha用于机器人真空吸尘器,适应用户口音的语音识别,让文本到语音说话,好像用户会说话。但是,目标设备的资源限制遇到了重大困难。我们建议NNTrainer,这是一个轻巧的设备培训框架。我们描述了NNTrainer实施的神经网络的优化技术,这些技术与传统一起评估。评估表明,NNTrainer可以将内存消耗降低至1/28,而不会恶化准确性或训练时间,并有效地个性化了对设备上的应用程序。 NNTrainer是跨平台和实用的开源软件,该软件正在作者隶属关系中部署到数百万个设备。
translated by 谷歌翻译
从3D点云中对可遍历区域和感兴趣的对象的感知是自主导航中的关键任务之一。一辆地面车辆需要寻找可以通过车轮探索的可遍历的地形。然后,为了做出安全的导航决定,必须跟踪位于这些地形上的物体的分割。但是,过度分割和分割不足可能会对此类导航决策产生负面影响。为此,我们提出了旅行,该行程使用3D点云的图表表示可遍历的地面检测和对象聚类。为了将可穿越的接地段分割,将点云编码为图形结构,即三个格里德字段,该场将每个三个格里德视为节点。然后,通过检查连接节点的边缘的局部凸度和凹度来搜索和重新定义可遍历的区域。另一方面,我们的地上对象分割通过表示球形预测空间中的一组水平相邻的3D点作为节点和节点之间的垂直/水平关系,以使用图形结构。充分利用节点边缘结构,上面的分割可确保实时操作并减轻过度分割。通过使用模拟,城市场景和我们自己的数据集的实验,我们已经证明,根据常规指标,我们提出的遍历地面分割算法优于其他最新方法,并且我们新提出的评估指标对于评估是有意义的地上细分。我们将在https://github.com/url-kaist/travel上向公开提供代码和自己的数据集。
translated by 谷歌翻译
深度神经网络(DNN)易受侵略性的例子,仔细设计用于导致深度学习模型犯错误。已经广泛研究了2D图像和3D点云的对手示例,但基于事件的数据的研究有限。基于事件的数据可以是在高速运动之下的2D图像的替代方案,例如自主驾驶。然而,给定的对抗事件使当前的深度学习模型容易受到安全问题的影响。在这项工作中,我们生成了对手示例,然后首次培训基于事件的数据的强大模型。我们的算法转移原始事件的时间并生成其他对抗事件。额外的对抗事件是在两个阶段产生的。首先,将null事件添加到基于事件的数据以生成其他对抗事件。可以使用空事件的数量来控制扰动大小。其次,在基于梯度的攻击中将额外的对抗事件的位置和时间设置为误导DNN。我们的算法在N-CALTECH101数据集中实现了97.95 \%的攻击成功率。此外,与原始模型相比,对抗性训练模型提高了对抗事件数据的鲁棒性。
translated by 谷歌翻译
在基于特征的同时定位和映射(SLAM)中,LINE具有点特征的稀疏性,使得可以映射周围环境结构。利用线特征的现有方法主要采用了使用线重新投影的测量模型。然而,在3D线映射过程中使用的方向向量不能被校正,因为线路测量模型仅在PL \“{U} CKER坐标中仅采用行的正常向量。结果,在3D期间发生的退化性等问题不能解决线映射过程。为了解决问题,本文提出了一种UV-SLAM,它是使用用于结构映射的消失点的基于不受约束的线路。本文侧重于使用结构规则而没有任何限制,如曼哈顿世界假设。为此,我们使用从线特征获得的消失点。通过图像中的线特征计算的消失点观察与通过方向向量计算的消失点估计计算的差异被定义为残差和添加到基于优化的SLAM的成本函数。此外,通过Fisher信息矩阵等级分析,我们证明了消失点测量S保证了一个独特的映射解决方案。最后,我们证明,与使用公共数据集的最先进的算法相比,本地化准确性和映射质量得到改善。
translated by 谷歌翻译